অ্যাপাচি ফ্লিঙ্ক (Apache Flink)

Task Parallelism এবং Data Partitioning

Latest Technologies - অ্যাপাচি ফ্লিঙ্ক (Apache Flink) - Performance Tuning এবং Optimization | NCTB BOOK

Apache Flink-এ Task Parallelism এবং Data Partitioning হলো দুটি গুরুত্বপূর্ণ কৌশল যা বড় আকারের ডেটা স্ট্রিম প্রসেসিং অ্যাপ্লিকেশনগুলোর স্কেলাবিলিটি ও পারফরম্যান্স নিশ্চিত করে। Flink এর ডিস্ট্রিবিউটেড প্রসেসিং মডেল এই দুটি কৌশল ব্যবহার করে স্ট্রিম ডেটাকে বিভক্ত এবং সমান্তরালভাবে প্রসেস করতে সক্ষম।

১. Task Parallelism

Task Parallelism হলো Flink অ্যাপ্লিকেশনের প্রতিটি টাস্ক বা কাজকে একাধিক টাস্ক স্লটে সমান্তরালভাবে চালানো। Flink-এ, প্রতিটি অপারেটরকে একাধিক টাস্কে ভাগ করা যায়, এবং প্রতিটি টাস্ক তার নিজস্ব সাব-সেট ডেটা প্রসেস করে।

Parallelism Level সেট করা:

Flink-এ প্রতিটি অপারেটরের জন্য parallelism সেট করা যায়, যা নির্দেশ করে যে কতগুলো টাস্ক একসাথে চলবে।

কোড উদাহরণ:

DataStream<String> stream = env.fromElements("Flink", "Parallelism", "Example");

// Parallelism লেভেল সেট করা
stream.map(value -> value.toUpperCase()).setParallelism(4);

বর্ণনা: উপরের উদাহরণে, map অপারেটরের জন্য parallelism লেভেল ৪ সেট করা হয়েছে, অর্থাৎ, এটি ৪টি টাস্কে বিভক্ত হবে এবং প্রতিটি টাস্ক ডেটার একটি অংশ প্রক্রিয়াকরণ করবে।

Parallelism এর সুবিধা:

  • উচ্চ পারফরম্যান্স: একই সময়ে একাধিক টাস্ক চালানো গেলে ডেটা প্রসেসিং দ্রুত হয়।
  • স্কেলাবিলিটি: বড় ডেটাসেট বা স্ট্রিম প্রসেস করতে ক্লাস্টারের রিসোর্স ব্যবহার করে সমান্তরাল প্রসেসিং করা যায়।
  • ফল্ট টলারেন্স: টাস্কগুলির সমান্তরাল এক্সিকিউশনের মাধ্যমে একটি টাস্ক ব্যর্থ হলেও অন্য টাস্কগুলির প্রভাব কম থাকে।

২. Data Partitioning

Data Partitioning হলো ডেটা স্ট্রিমকে বিভিন্ন টাস্কে বিভক্ত করার কৌশল। এটি নিশ্চিত করে যে ডেটা সঠিকভাবে ভাগ হয় এবং প্রতিটি টাস্ক ডেটার একটি নির্দিষ্ট অংশ প্রক্রিয়াকরণ করে। Flink-এ বিভিন্ন ধরনের ডেটা পার্টিশনিং কৌশল আছে:

KeyBy Partitioning (Hash Partitioning):

keyBy() ফাংশন ব্যবহার করে ডেটা একটি নির্দিষ্ট কী-এর উপর ভিত্তি করে পার্টিশন করা হয়। এটি সাধারণত hash partitioning পদ্ধতি ব্যবহার করে, যেখানে একই কী-এর সমস্ত ইভেন্ট একসাথে একটি টাস্কে যায়।

কোড উদাহরণ:

DataStream<Tuple2<String, Integer>> stream = env.fromElements(
    new Tuple2<>("apple", 1),
    new Tuple2<>("banana", 2),
    new Tuple2<>("apple", 3)
);

// KeyBy অপারেশন ব্যবহার করে কী-ভিত্তিক পার্টিশন
KeyedStream<Tuple2<String, Integer>, String> keyedStream = stream.keyBy(value -> value.f0);

বর্ণনা: এখানে, ডেটা কী (apple, banana) অনুযায়ী ভাগ করা হচ্ছে। একই কী-এর ইভেন্টগুলি একই টাস্কে যাবে।

Rebalance Partitioning:

rebalance() ব্যবহার করে ডেটাকে সমানভাবে বিভিন্ন টাস্কে ভাগ করা যায়। এটি সাধারণত তখন ব্যবহৃত হয় যখন ডেটা স্ট্রিমে লোড ভারসাম্য রাখতে হয়।

কোড উদাহরণ:

DataStream<String> balancedStream = stream.rebalance();

বর্ণনা: এখানে, rebalance() ডেটা স্ট্রিমকে সমানভাবে ভাগ করছে যাতে প্রতিটি টাস্ক সমান সংখ্যক ইভেন্ট পায়।

Rescale Partitioning:

rescale() ডেটাকে স্কেল করে ভাগ করে। এটি ক্লাস্টারের বিভিন্ন টাস্ক ম্যানেজারগুলিতে ডেটা ভাগ করতে ব্যবহৃত হয়, যেখানে লোড ভারসাম্য রাখা প্রয়োজন।

কোড উদাহরণ:

DataStream<String> rescaledStream = stream.rescale();

বর্ণনা: এখানে, rescale() পার্টিশনিং করে যাতে টাস্ক ম্যানেজারগুলিতে ডেটা সমানভাবে ভাগ করা যায়।

Broadcast Partitioning:

broadcast() ব্যবহার করে ডেটার সমস্ত ইভেন্টকে প্রতিটি টাস্কে পাঠানো হয়। এটি সাধারণত এমন ক্ষেত্রে ব্যবহৃত হয় যেখানে প্রতিটি টাস্ককে একই কনফিগারেশন বা রেফারেন্স ডেটা প্রয়োজন।

কোড উদাহরণ:

DataStream<String> broadcastStream = stream.broadcast();

বর্ণনা: এখানে, broadcast() এর মাধ্যমে ডেটা স্ট্রিমের প্রতিটি ইভেন্ট সমস্ত টাস্কে পাঠানো হচ্ছে।

Task Parallelism এবং Data Partitioning-এর মিলিত ব্যবহার

Flink-এ Task Parallelism এবং Data Partitioning একত্রে ব্যবহার করে অ্যাপ্লিকেশনগুলোর পারফরম্যান্স ও স্কেলাবিলিটি বাড়ানো যায়। উদাহরণস্বরূপ, একটি keyBy অপারেশন ডেটা স্ট্রিমকে কী-ভিত্তিক ভাগ করে এবং তারপর parallelism সেট করে সমান্তরাল টাস্কের মাধ্যমে দ্রুত ডেটা প্রসেস করা যায়।

উপসংহার

Apache Flink-এ Task Parallelism এবং Data Partitioning ডেটা প্রসেসিংয়ের পারফরম্যান্স বাড়ানোর মূল কৌশল। Parallelism স্ট্রিমকে সমান্তরাল টাস্কে ভাগ করে উচ্চ পারফরম্যান্স নিশ্চিত করে, এবং Partitioning ডেটা ভাগ করে লোড ভারসাম্য ও দক্ষতা বৃদ্ধি করে। Flink-এর বিভিন্ন পার্টিশনিং কৌশল ব্যবহার করে বড় আকারের এবং জটিল ডেটা স্ট্রিম সহজে প্রসেস করা সম্ভব।

Promotion